查看原文
其他

数据集 | 2006年-2022年企业社会责任报告

大邓 大邓和他的Python
2024-09-10



近年来,企业社会责任(csr)已成为全球学术界研究的热点,



一、CSR相关论文

[1]解学梅,朱琪玮.企业绿色创新实践如何破解“和谐共生”难题?[J].管理世界,2021,37(01):128-149+9.
[2]谢红军,吕雪.负责任的国际投资:ESG与中国OFDI[J].经济研究,2022,57(03):83-99.
[3]Schaefer, Sarah Desirée, Ralf Terlutter, and Sandra Diehl. "Is my company really doing good? Factors influencing employees' evaluation of the authenticity of their company's corporate social responsibility engagement." Journal of business research 101 (2019): 128-143.



CSR数据多为非结构文本数据,可以做词频统计、情感分析、话题模型等文本分析任务。今天给大家奉上A股CSR数据集, 对文本分析感兴趣的同学, 欢迎报名视频课「Python实证指标构建与文本分析」。本文仅展示A股企业社会责任数据集,并作简单分析。



二、CSR数据集

目前这是市面上最全最完整的原始数据,数据已整理到csv压缩文件(大小245M)。

A股企业社会责任报告数据集基本信息

- 记录数12377
- 沪深2031家公司
- 年度2006-2022
- 公布日期2007-03-14 ~ 2023-12-25
- txt、pdf、csv

三、导入数据

import pandas as pd

df = pd.read_excel('CSR2006-2033.xlsx')
df


#ESG报告数
len(df)

Run

    12377

#发布ESG报告的公司数
df.code.nunique()

Run

    2031

#有ESG报告的年份

#sorted(df['year'].unique())
sorted(df.year.unique())

Run

    [2006,
     2007,
     2008,
     2009,
     2010,
     2011,
     2012,
     2013,
     2014,
     2015,
     2016,
     2017,
     2018,
     2019,
     2020,
     2021,
     2022]

发布日期

df['pub_date'] = pd.to_datetime(df['pub_date'])
print(df['pub_date'].min())
print(df['pub_date'].max())

Run

2007-03-14 00:00:00
2023-12-25 00:00:00



四、ESG年度发布量

df.groupby('year').apply(len).plot(kind='bar')  

五、沪深发布量

大邓记得深圳交易所大多数股票以0开头,上海交易所股票则大多以6开头。可以简单通过第一位数字来判断两个交易所发布量

#切片,选取股票代码字符串第二个位置的数字
df['code'].str.slice(start=1, stop=2).value_counts()

Run

    code
    6    7027
    0    4395
    3     929
    9      15
    2       6
    8       5
    Name: count, dtype: int64

运行结果,除了0和6还出现了2、3/9。综上,股票代码

  • 6 最常见的上交所的股票代码
  • 0 最常见的深交所的股票代码
  • 3 创业板
  • 2和9 我不太熟悉

df[df['code'].str.startswith('A6')]


df[df['code'].str.startswith('A0')]


#股票代码第一位出现2或者9的股票
df[df['code'].str.match('A2|A9')]

数据集获取

内容为付费数据集, 100元, 加微信 372335839, 备注「姓名-学校-专业-ESG」




精选内容

LIST | 社科(经管)可用数据集列表
LIST | 文本分析代码列表
LIST | 社科(经管)文本挖掘文献列表
管理科学学报 | 使用「软余弦相似度」测量业绩说明会「答非所问程度」
数据集  | 人民网政府留言板原始文本(2011-2023.12)
数据集  |  人民日报/经济日报/光明日报 等 7 家新闻数据集
可视化 | 人民日报语料反映七十年文化演变
数据集 | 2024年中国全国5级行政区划(省、市、县、镇、村)
数据集 | 三板上市公司年报2002-2023.12
数据集 | 人民网地方领导留言板原始文本(2011-2023.12)
数据集 | 3571万条专利申请数据集(1985-2022年)
数据集 |  专利转让数据集(1985-2021)
数据集 | 288w政府采购合同公告明细数据(2023.09)
数据集 | 用来练习pandas的招聘数据
代码 | 使用 3571w 专利申请数据集构造面板数据
代码 | 使用「新闻数据集」计算 「经济政策不确定性」指数
数据集 | 国省市三级gov工作报告文本
代码 | 使用「新闻数据」生成概念词频「面板数据」
代码 | 使用 3571w 专利申请数据集构造面板数据
代码 | 使用gov工作报告生成数字化词频「面板数据」
Polars库 | 最强 Pandas 平替来了
cpca库 | 中国省、市区划匹配库
opencc | 中文简体、繁体转换库
可视化 | 使用 DataMapPlot 绘制数据地图
继续滑动看下一个
大邓和他的Python
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存